iT邦幫忙

2025 iThome 鐵人賽

DAY 25
0
Security

Cybersecurity 淺談資安學習歷程系列 第 25

Day 25|《資安一點通:去識別化技術探討 ep.2 — 初見 De-identification 核心》

  • 分享至 

  • xImage
  •  

前言

可能蠻多人覺得資安只是在防止駭客攻擊,也沒錯!但其實「如何能讓資料安全地流通」才是更難的課題,如果不需要擔心資料被竊取,那麼即便讓駭客或者有心人士拿到資料也沒有太大的用處;這就是「去識別化」技術帶來的好處以及核心意義上。

昨天我們聊過 NER 以及 PII,今天就來進一步針對「去識別化(De-identification)」技術來談談吧!在開始講 De-identification 之前,覺得還是需要跟大家簡單說一下 LLM 為何?以及它在當中扮演的角色,因為跟這個去識別化技術息息相關!

LLM 是什麼?

LLM(Large Language Model,大型語言模型)是一種基於 Deep Learning 深度學習的自然語言處理模型,如 GPT、BERT、LLaMA 等。這類基於 Transformer 架構的模型都經過大量文本資料的訓練,可以去理解、產生人類語言,並具有強大文本處理以及分析的能力。

對於 LLM 有興趣的話可網上搜尋,有很多相關的資料以及文獻:

說來說去,那它到底跟我們要談論的去識別化有什麼關係呢?

LLM 與去識別化、NER、PII 的關聯

LLM 在去識別化過程中扮演的關鍵角色:

  • LLM vs. NER:
    LLM 能高效執行 NER 任務,從文本中識別出人名、地址、日期等實體,這是去識別化的第一步。相較於傳統 NER 方法,LLM 具有更高的準確度和更廣的適用範圍。
  • LLM vs. PII:
    LLM 可以快速識別文本中的 PII,如身份證號碼、電話號碼、電子郵件等。透過對大量資料的學習,LLM 能夠更全面地找出可能被用來識別個人的資訊。
  • 在去識別化過程中的應用:
    LLM 不僅可以識別 PII,還能執行替換、遮蔽或重寫等操作,將識別資訊轉換為無法識別的形式,同時「保持資料的可用性」。

它的優勢在於其上下文理解能力 context reading ability 非常強大!使其能夠辨別隱含的 PII(如間接描述某人身分的文本)、處理不同語言和格式的資料,以及適應不同形式的個人資訊。

可以說,LLM 為去識別化技術帶來了革命性的進展,讓我們能更有效地保護隱私,同時讓資料更安全地流通和使用。


那去識別化是什麼?

去識別化(De-identification)是一種資料處理技術,目的是移除或修改能夠識別個人身份的資訊,使資料在保持有用性的同時不再能夠連結到特定個體。

為什麼需要去識別化?

  • 法規遵循:如 GDPR、HIPAA 等隱私法規要求在處理和分享個人資料時必須保護個人隱私。
  • 隱私保護:降低資料洩露風險,保護個人權益不受侵害。
  • 促進資料共享:允許資料在不同組織間安全流通,用於研究、分析和開發。
  • 減輕責任:降低組織在資料處理過程中的法律和聲譽風險。

去識別化的具體流程

去識別化通常涉及以下步驟:

  1. 識別PII:利用NER等技術識別文本中所有可能的個人識別資訊。
  2. 應用技術處理:對識別出的PII進行處理,主要技術包括:
  • 資料遮蔽(Masking):用特殊字元(如星號)替換部分或全部敏感資訊。例如:「信用卡號:4321---9876」
  • 資料模糊化(Blurring):降低資料精確度,如將確切年齡改為年齡範圍(「42歲」→「40-45歲」)
  • 資料替換(Substitution):用假名或代碼替換真實資訊,如將真實姓名替換為「Person_A」
  • 資料一般化(Generalization):將特定值轉換為更一般的類別,如「台北市中正區」→「台灣北部」
  • 雜湊(Hashing):將資料轉換為固定長度的字串,難以反向解析
  • 合成資料(Synthetic Data):生成具有相似統計特性但不含真實 PII 的替代資料

簡單假名化的去識別化形式示意圖(Pseudonymization 假名化):皮卡丘很可愛 ❤️

https://ithelp.ithome.com.tw/upload/images/20250925/201759576TesMub6UD.png

  1. **評估風險:**評估處理後資料的重新識別風險,確保達到足夠的安全程度
  2. **維持資料實用性:**在去識別化過程中,需確保資料仍保留足夠的特性和價值,以支援後續分析和應用
  3. **文檔和審核:**記錄去識別化過程,包括使用的方法和決策,以便日後審核和評估

需要注意的是,去識別化並不是完全消除重新識別的風險,特別是在大數據環境中,多個資料集的交叉比對可能導致重新識別。因此,去識別化應視為隱私保護策略的一部分,並與其他安全措施結合使用。

去識別化的實際應用案例

🏡 企業與政府的應用場景

  • 醫療健康資料分享:醫院與研究機構需分享患者資料進行研究,但必須移除可識別資訊以符合HIPAA等法規。例如台灣的健保資料庫需去識別化後才能提供學術研究使用。
  • 金融機構風險分析:銀行需分析客戶交易數據以優化服務和防範詐騙,但必須保護客戶隱私,通常會對身分證字號、完整帳號等資訊進行遮蔽處理。
  • 政府公開資料:政府機構在發布公開資料集時,會移除或模糊化個人資訊,如人口普查資料、稅務統計等。
  • 企業間資料協作:不同企業合作開發AI或分析模型時,需要共享資料但又要保護各自客戶隱私,例如電信公司與零售業者合作分析消費者行為。

🛠️ 技術實現方式

去識別化的技術實現主要通過以下方式:

  1. 專用工具與平台 → 現在市場上有非常多種專業工具,例如:
  • Privacy Analytics 的 Eclipse 工具
  • IBM Security Guardium Data Protection
  • Microsoft Azure Purview(現已更名為 Microsoft Purview)
  • Google Cloud DLP(Data Loss Prevention)
  1. 自建系統與APIs → 許多企業會建立自己的去識別化流程:
  • 利用開源 NLP 庫如 spaCy、NLTK 或企業級工具
  • 整合 LLM-as-a-Service,如 OpenAI API 或 Azure OpenAI Service
  • 開發「自定義規則 Regex」引擎處理特定領域的 PII 識別(針對「特定領域」的客戶去達成需求,像是醫院、保險業務等等就會需要不同的 PII 識別資料
  1. 資料傳輸中的去識別化 → 主要通過以下方式實現:
  • 端到端加密(E2EE)保護數據傳輸安全
  • 傳輸前進行去識別化處理
  • 使用安全多方計算(MPC)技術,允許多方在不實際共享原始資料的情況下進行計算
  • 聯邦學習(Federated Learning),使模型在本地學習後僅共享模型參數而非原始資料

📍 可追溯性與資料價值平衡(很重要!

不只是我們在傳輸資料的過程中需要做到去識別化,而是能夠在去識別化後,我們還有辦法去 access 到原本的 raw data → 可追溯性問題(這樣原本的資料才具有實質的意義對吧?你想想保險業會需要去識別化後的資料嗎?不會!)。所以實務上通常採用以下方法平衡隱私與可用性:

  • 金鑰管理機制:使用雙向映射表(Mapping)或加密金鑰,只有「授權」的使用者在特定條件下才能將去識別化資料重新連結至原始資料。
  • 分級訪問控制:建立不同權限層級(身分授權的部分),只有高權限用戶才能看到或還原較完整的資訊。
  • 假名化(Pseudonymization):這是一種較「弱形式」的去識別化,將識別資料替換為假名或代碼,而非完全刪除,便於在需要時還原。歐盟 GDPR 特別認可此方法作為一種保護資料的技術措施。
  • 安全計算環境:在隔離的安全環境中處理敏感資料,研究人員可以在此環境中分析資料,但不能導出原始 PII。

值得注意的是,可追溯性本身也是一個「隱私風險」,企業必須建立嚴格地治理框架,確保只有在「合法、必要且得到適當授權的情況下」才能進行資料回溯,並記錄每次回溯的行為以確保可以即時、日後的追蹤。

實際案例

台灣健保資料庫(NHIRD)是一個經典範例,它通過移除直接識別符(如姓名、身分證字號),並將醫療機構代碼、醫師代碼等進行編碼轉換,使研究人員能分析全民健保資料而不侵犯個人隱私。同時,健保署保留對應表,在特定條件下可進行必要的追溯。

總結來說,企業和政府機構採用去識別化技術不僅是為了符合法規要求,更是在數據驅動時代平衡資料價值與隱私保護的重要策略。


結語:為什麼「隱藏」是一種力量?

去識別化不是「把資料毀掉」,而是能夠讓資料「安全地活下來」,並且傳遞到正確、合法授權的人手上


上一篇
Day 24|《資安一點通:去識別化技術探討 ep1. —NER 跟 PII 的緊密關係》
下一篇
Day 26|《資安一點通:去識別化技術探討 ep.3 — De-identification 範例流程實作》
系列文
Cybersecurity 淺談資安學習歷程26
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言